智能论文笔记

CNN-Trans-Enc: A CNN-Enhanced Transformer-Encoder On Top Of Static BERT representations for Document Classification

Charaf Eddine Benarab , Shenglin Gui

分类：自然语言处理

2022-09-13

Bert在文本分类任务中取得了显着的结果，但尚未完全利用它，因为仅将最后一层用作下游分类器的表示输出。关于伯特学到的语言特征性质的最新研究表明，不同的层集中在不同种类的语言特征上。我们提出了一个CNN增强的变压器编码器模型，该模型在固定的bert $ [cls] $顶部进行了训练，来自所有层的表示，采用卷积神经网络来生成变压器编码器内的QKV功能映射，而不是线性的输入投影，进入嵌入空间。 CNN-Trans-enc相对较小，因为下游分类器，并且不需要对Bert进行任何微调，因为它可以确保从所有层中的$ [CLS] $表示的最佳使用，从而利用具有更有意义，更有意义，更有意义，更有意义的语言功能和输入的可推广QKV表示。将BERT与CNN-Trans-enc一起使用$ 98.9 \％$和$ 94.8 \％\％$ $ $ $ $ -5，$ 82.23 $（$ 8.9 \％$改善），在亚马逊极性上，$ 0.98 \％$（$ 0.2 \％$改进）（来自两个数据集的100万个样本子集的K倍交叉验证）。在AG新闻数据集中，CNN-Trans-enc在当前最新的$ 99.94 \％$中，并在DBPEDIA-14上获得了新的最高绩效，平均准确性为99.51美元\％$。索引术语：文本分类，自然语言处理，卷积神经网络，变压器，伯特

translated by 谷歌翻译

通常通过过去的选择来告知机器学习中的评估，例如要使用哪些数据集或指标。该标准化可以使用排行榜对平等基础进行比较，但是随着出现更好的替代方案，评估选择变得不佳。这个问题在自然语言生成中尤其相关，该语言需要不断改善的数据集，指标和人类评估以提出确定性的主张。为了使遵循最佳模型评估实践更加容易，我们介绍了GEMV2。新版本的一代，评估和指标基准为数据集，模型和指标开发人员提供了模块化基础架构，以使彼此受益。GEMV2支持40种记录的数据集中51种语言。所有数据集的模型都可以在线评估，我们的交互式数据卡创建和渲染工具使得在Living Benchmark中添加新数据集变得更加容易。

translated by 谷歌翻译

Dascim（数据科学和采矿）在Ecole Polytechnique的Lix的一部分，于2013年成立，从那时起，通过机器和深度学习方法生产大规模数据分析领域。本集团在NLP领域专门积极活跃，并在方法论和资源水平上具有有趣的结果。在此遵循我们对AFIA社区的不同贡献。

translated by 谷歌翻译

我们将增强件应用于我们的数据集以增强我们预测的质量，并使我们的最终模型更具弹性，以嘈杂的数据和域漂移。然而，问题仍然存在，这些增强如何使用不同的超参数进行？在这项研究中，我们通过在应用于机器学习模型的不同增强时，通过执行当地代理（石灰）解释来评估模型的超参数的增强和影响。我们利用了用于称重每个增强的线性回归系数。我们的研究证明，有一些增强对超参数和其他更具弹性和可靠的其他增强。

translated by 谷歌翻译